4 research outputs found
A small Griko-Italian speech translation corpus
This paper presents an extension to a very low-resource parallel corpus collected in an endangered language, Griko, making it useful for computational research. The corpus consists of 330 utterances (about 2 hours of speech) which have been transcribed and translated in Italian, with annotations for word-level speech-to-transcription and speech-to-translation alignments. The corpus also includes morpho syntactic tags and word-level glosses. Applying an automatic unit discovery method, pseudo-phones were also generated. We detail how the corpus was collected, cleaned and processed, and we illustrate its use on zero-resource tasks by presenting some baseline results for the task of speech-to-translation alignment and unsupervised word discovery. The dataset will be available online, aiming to encourage replicability and diversity in computational language documentation experiments
A Very Low Resource Language Speech Corpus for Computational Language Documentation Experiments
Most speech and language technologies are trained with massive amounts of
speech and text information. However, most of the world languages do not have
such resources or stable orthography. Systems constructed under these almost
zero resource conditions are not only promising for speech technology but also
for computational language documentation. The goal of computational language
documentation is to help field linguists to (semi-)automatically analyze and
annotate audio recordings of endangered and unwritten languages. Example tasks
are automatic phoneme discovery or lexicon discovery from the speech signal.
This paper presents a speech corpus collected during a realistic language
documentation process. It is made up of 5k speech utterances in Mboshi (Bantu
C25) aligned to French text translations. Speech transcriptions are also made
available: they correspond to a non-standard graphemic form close to the
language phonology. We present how the data was collected, cleaned and
processed and we illustrate its use through a zero-resource task: spoken term
discovery. The dataset is made available to the community for reproducible
computational language documentation experiments and their evaluation.Comment: accepted to LREC 201
Proposta de métricas de avaliação da qualidade da informação médica para Sistemas de Recomendação baseados no perfil do usuário
A Web é uma fonte de busca onde as pessoas procuram informações sobre cuidados em saúde. Entretanto, é aberta a vários tipos de publicação e provedores de informação, portanto a qualidade das informações em saúde que são publicadas são altamente variáveis e dinâmicas. Um usuário leigo que busca informação nem sempre possui o conhecimento e educação suficientes para avaliar e validar a informação disponível. Neste relatório aborda-se um sistema de recomendação baseado no perfil do usuário e na qualidade da informação recomendada
Proposta de métricas de avaliação da qualidade da informação médica para Sistemas de Recomendação baseados no perfil do usuário
A Web é uma fonte de busca onde as pessoas procuram informações sobre cuidados em saúde. Entretanto, é aberta a vários tipos de publicação e provedores de informação, portanto a qualidade das informações em saúde que são publicadas são altamente variáveis e dinâmicas. Um usuário leigo que busca informação nem sempre possui o conhecimento e educação suficientes para avaliar e validar a informação disponível. Neste relatório aborda-se um sistema de recomendação baseado no perfil do usuário e na qualidade da informação recomendada